Alteryxをもっと活用したい!「データ解析の実務プロセス入門」を読む – Alteryx User Group in 東京 Advent Calendar 2018 #alteryx #alteryx_ug
こんにちは、にいのです。
当エントリは『Alteryx User Group in 東京 Advent Calendar 2018』13本目のエントリです。
- Alteryx User Group in 東京 Advent Calendar 2018 - Qiita
- Alteryx User Group in 東京 Advent Calendar 2018 | シリーズ | DevelopersIO
ことの発端
うーん、数学もいいんですがこの辺を知っといていただけると - Alteryx ACE じょんすみす-
私は2018年10月入社でAlteryxは初心者です。ツールの使い方や操作方法はボチボチ理解できてきても、データ解析まわりの知識がお恥ずかしながら発展途上…一体どうすれば…数学をやり直した方がいいのでしょうか…そんな時、Alteryx ACEである弊社じょんすみすが冒頭の言葉と共に本を紹介してくれました。そのうちの一冊、「データ解析の実務プロセス入門(著者:あんちべ氏)」を読みましたのでご紹介します。
「データ解析の実務プロセス入門」について
ターゲット
データ解析の入門者・未経験者向けに書かれています。プログラミング知識は不要です。データ解析の工程が豊富な例とともに平易な文章で書かれており、プロセスを体系だてて学べます。
章構成
- 第1章 データ解析概要
- 第2章 データ解析のプロセス
- 第3章 良きデータ
- 第4章 探索的データ解析
- 第5章 運用
- 第6章 テキストマイニング
- 第7章 分析手法手習い
- 第8章 解析事例
?第1章 データ解析概要
文字通り概要について紹介されている章です。データ解析をする理由・統計用語の解説・よくあるQ&Aが記載されています。よく聞く「確度」などの言葉もなんとなく理解していました(つもり)が、この章を読んで納得しました。
?第2章 データ解析のプロセス
データ解析における以下プロセスについて解説されているのがこの章です。
- 目的設定
- 分析計画
- データ設計
- データ収集・保存
- データの前処理
- 分析手法選択と適用
- 分析結果の解釈
- 施策の提案
- 施策実施
- 施策後の効果検証
プロセスを明確に理解していることでつまづきがあった際に前のプロセスへ立ち戻って確認ができます。「データ解析において重要なのは、目的を明確にすること、その次にデータ、最後に手法」という部分が特に刺さりました。
?第3章 良きデータ
第2章で言及されていたプロセスの、データ設計〜データの前処理の部分について書かれています。 Alteryxをお使いの方は特に心当たりがある章ではないでしょうか。データは量より質です。大量に集めたデータでも、信頼性が低ければ誤った分析結果を招きかねません。この章では、分析に必要なデータの収集方法やデータ形式、加工の方法などが学べます。
?第4章 探索的データ解析
第2章で言及されているプロセスの、分析手法選択と適用に関する章です。 データを解析する際、よく知らない分野だとどのような目的やアプローチを設定すればいいのか悩むことはありませんか?明確な仮説の設定が難しい場合は、仮説をデータで裏付けするのではなく、データから仮説を得る探索的データ解析が有効です。この章では、可視化、再表現、抵抗性の3つの概念をベースに探索的データ解析について解説しています。
?第5章 運用
第2章で言及されているプロセスの、分析結果の解釈〜施策後の効果検証に関する章です。 データを解析できたら次は解析結果をどのように役立てるかが重要です。この章では目的の達成度合いを測る指標や、分析結果から得られた改善案を導入するための提案・スケジュール策定・タスク見積もりなどのプロジェクトマネジメント的な手法が紹介されています。データ解析が価値を発揮するのは解析結果から得られた改善策を実施してこそ、という観点でフィードバックの方法に触れているのは、一連のプロセスを解説しているこの本の特徴的な部分だと思います。
?第6章 テキストマイニング
第2章で言及されているプロセスの、分析手法選択と適用に関する章です。 SNSの書き込みやレビュー、アンケートなどにはサービスを利用しているユーザーの声が詰まっており、テキストマイニングを実施することで有用なデータとして抽出し、解析することが可能です。この章ではテキストマイニングの手法について紹介しています。
紹介されている手法は以下の通りです。
ワードカウント
文章中の特定のワードを数を数えるKWIC検索
指定したワードを含む文を抽出し、前後の文からどのような文脈で登場するワードなのか判断する特徴語抽出
該当の文以外ではあまり出てこない単語に重きを置くことで、その文を特徴づける単語を調べる共起分析
複数の単語が同時に使われるような共起関係にある単語同士を調べる階層的クラスタリング
似た者同士の単語をまとめる
AlteryxでもWeekly Challenge #11: Identify Logical Groupsでテキストマイニングに挑戦できます。顧客のクレームを元に、最も苦情を受けている製品を解析するという内容ですので、もしご興味があればお試しください。
?第7章 分析手法手習い
決定木やクラスタリングなどといった、高度な統計分析手法を紹介しているのがこの章です。AlteryxではPredictive Toolsで実現可能な手法です。実際にPredictive Toolsを使用するサンプルワークフローを、Alteryx Predictive Tools 道場 Advent Calendar 2018にてご紹介しております。Alteryxでの分析手法にお悩みの際はぜひご覧ください!
?第8章 解析事例
第2章で言及されているプロセスの分析手法選択と適用に関する章です。 実際の解析事例を、これまでで学んだプロセスをベースに確認できるおさらいの章です。新人とベテラン統計屋の対話形式で書かれている読みやすい章です。失敗談やおすすめの本もここで紹介されています。
おわりに
今回は「データ解析の実務プロセス入門」についてご紹介しました。私と同じようにデータ解析初心者としてはじめの一歩を踏み出してみたい方や、今一度基本をおさらいしたい方のご参考になれば幸いです。
明日は弊社じょんすみすによる「Alteryxとtidy data」です。お楽しみに!